检索结果

Select

1. 融合行为词的罪名预测多任务学习模型

郭晓, 陈艳平, 唐瑞雪, 黄瑞章, 秦永彬

《计算机应用》唯一官方网站 2024, 44 (1): 159-166. DOI: 10.11772/j.issn.1001-9081.2023010029

摘要（150）

HTML （3）

PDF （2318KB）（38）

随着人工智能技术在司法领域的应用，依据案情描述预测所属罪名成为一项重要研究内容。案情内容术语专业，描述言简意赅，而现有方法却往往依赖文本特征，忽略了不同案件相关要素的差异性，缺乏对案情行为词要素的有效利用。为了解决此类问题，提出一种融合行为词的罪名预测多任务学习模型。首先，由边界识别器生成行为词跨度，提炼出案情核心内容；其次，通过构建行为词的结构特征预测所属罪名；最后，将行为词识别和罪名预测进行统一建模，通过共享参数的方式增强模型的泛化能力。通过构建行为词识别和罪名预测的多任务数据集进行验证，实验结果表明该模型识别行为词任务的F值达到了83.27%，罪名预测任务的F值达到了84.29%，与BERT-CNN模型相比，分别提高了0.57%和2.61%，验证了该模型对行为词识别和罪名预测的优势。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 融合局部语义特征的学者细粒度信息提取方法

田悦霖, 黄瑞章, 任丽娜

《计算机应用》唯一官方网站 2023, 43 (9): 2707-2714. DOI: 10.11772/j.issn.1001-9081.2022091407

摘要（148）

HTML （12）

PDF （1296KB）（95）

从学者主页中提取的学者细粒度信息（如学者研究方向、教育经历等）在大规模专业人才库的创建等方面具有非常重要的应用价值。针对现有学者细粒度信息提取方法无法有效利用上下文语义联系的问题，提出一种融合局部语义特征的学者信息提取方法，利用局部范围文本的语义联系对学者主页进行细粒度信息抽取。首先，通过全词掩码中文预训练模型RoBERTa-wwm-ext学习通用语义表征；之后将通用语义表征中的目标句表征向量与局部相邻文本表征向量共同输入卷积神经网络（CNN）实现局部语义融合，从而获得更高维度的目标句表征向量；最终将目标句表征向量从高维度空间映射到低维度标签空间实现学者主页细粒度信息的抽取。实验结果表明，使用此融合局部语义特征的方法进行学者细粒度信息提取的宏平均F1值达到93.43%，与未融合局部语义的RoBERTa-wwm-ext-TextCNN方法相比提高了8.60个百分点，验证了所提方法在学者细粒度信息提取任务上的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 面向热点新闻事件的层次化故事脉络生成方法

刘东, 林川, 任丽娜, 黄瑞章

《计算机应用》唯一官方网站 2023, 43 (8): 2376-2381. DOI: 10.11772/j.issn.1001-9081.2022091377

摘要（408）

HTML （20）

PDF （1333KB）（266）

热点新闻事件的发展十分丰富，各个阶段的发展都有其独特的叙述，并且随着事件的发展呈现出层次化故事脉络演化的趋势。针对现有故事脉络生成方法存在脉络可解释性不佳以及缺乏层次性的问题，提出一种面向热点新闻事件的层次化故事脉络生成方法（HSGM）。首先，采用改进热词算法来挑选主干种子事件，以构建主干脉络；其次，挑选分支事件热词以增强分支可解释性；然后，在分支脉络中采用融合热词关联度与动态时间惩罚的脉络连贯度挑选策略来增强父子事件的连接，以构建层次化热词，进而构建多层次故事脉络；此外，考虑到热点新闻事件存在潜伏期，在脉络构建过程加入孵化池以解决因热度不够所产生的初始事件被忽略问题。在两个自建真实数据集上进行实验的结果表明，在事件追踪过程中，与分别基于singlePass和基于k-means的方法相比，HSGM的F值分别高出了4.51%、6.41%和20.71%、13.01%；而在脉络构建过程中，与Story Forest和Story Graph相比，HSGM在两个自建数据集上的准确性、可理解性、完整性方面表现良好。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

4. 深度动态文本聚类模型DDDC

陆辉, 黄瑞章, 薛菁菁, 任丽娜, 林川

《计算机应用》唯一官方网站 2023, 43 (8): 2370-2375. DOI: 10.11772/j.issn.1001-9081.2022091354

摘要（253）

HTML （11）

PDF （1962KB）（118）

互联网的飞速发展使得新闻数据呈爆炸增长的趋势。如何从海量新闻数据中获取当前热门事件的主题演化过程成为文本分析领域研究的热点。然而，常用的传统动态聚类模型处理大规模数据集时灵活性差且效率低下，现有的深度文本聚类模型则缺乏一种通用的方法捕捉时间序列数据的主题演化过程。针对以上问题，设计了一种深度动态文本聚类（DDDC）模型。该模型以现有的深度变分推断算法为基础，可以在不同时间片上捕捉融合了前置时间片内容的主题分布，并通过聚类从这些分布中获取事件主题的演化过程。在真实新闻数据集上的实验结果表明，在不同的数据集上，与动态主题模型（DTM）、变分深度嵌入（VaDE）等算法相比，DDDC模型在各时间片的聚类精度均至少提升了4个百分点，且归一化互信息（NMI）至少提高了3个百分点，验证了DDDC模型的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

5. 基于多层语义融合的结构化深度文本聚类模型

马胜位, 黄瑞章, 任丽娜, 林川

《计算机应用》唯一官方网站 2023, 43 (8): 2364-2369. DOI: 10.11772/j.issn.1001-9081.2022091356

摘要（270）

HTML （14）

PDF （1642KB）（183）

近年来，由于图神经网络（GNN）的结构信息在机器学习中的优势，人们开始将GNN结合进深度文本聚类中。当前结合GNN的深度文本聚类算法在文本语义信息融合时忽略了解码器在语义补足上的重要作用，这导致在数据生成部分出现语义信息的缺失。针对以上问题，提出了一种基于多层语义融合的结构化深度文本聚类模型（SDCMS）。该模型利用GNN将结构信息集成到解码器中，通过逐层语义补充增强了文本数据的表示，并通过三重自监督机制获得更好的网络参数。在Citeseer、Acm、Reutuers、Dblp、Abstract 这5个真实数据集上进行实验的结果表明，与目前最优的注意力驱动的图形聚类网络（AGCN）模型相比，SDCMS在准确率、归一化互信息（NMI）和平均兰德指数（ARI）上分别最多提升了5.853%、9.922%和8.142%。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

6. 基于节点相似性分组与图压缩的图摘要算法

宏宇, 陈鸿昶, 张建朋, 黄瑞阳

《计算机应用》唯一官方网站 2023, 43 (10): 3047-3053. DOI: 10.11772/j.issn.1001-9081.2022101535

摘要（267）

HTML （26）

PDF （1105KB）（219）

针对当前图摘要方法压缩率较高，图压缩算法无法直接被用于下游任务分析的问题，提出一种图摘要与图压缩的融合算法，即基于节点相似性分组与图压缩的图摘要算法（GSNSC）。首先，初始化节点为超节点，并根据相似度对超节点分组；其次，将每个组的超节点合并，直到达到指定次数或指定节点数；再次，在超节点之间添加超边和校正边以恢复原始图；最后，对于图压缩部分，判断对每个超节点的邻接边压缩和摘要的代价，并选择二者中代价较小的执行。在Web-NotreDame、Web-Google和Web-Berkstan等6个数据集上进行了图压缩率和图查询实验。实验结果表明，在6个数据集上，与SLUGGER（Scalable Lossless sUmmarization of Graphs with HiERarchy）算法相比，所提算法的压缩率至少降低了23个百分点；与SWeG（Summarization of Web-scale Graphs）算法相比，所提算法的压缩率至少降低了13个百分点；在Web-NotreDame数据集上，所提算法的度误差比SWeG降低了41.6%。以上验证了所提算法具有更好的图压缩率和图查询准确度。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

7. 基于反绎学习的裁判文书量刑情节识别

李锦烨, 黄瑞章, 秦永彬, 陈艳平, 田小瑜

《计算机应用》唯一官方网站 2022, 42 (6): 1802-1807. DOI: 10.11772/j.issn.1001-9081.2021091748

摘要（422）

HTML （14）

PDF （1407KB）（104）

针对司法领域标记数据匮乏、标注质量不高、存在强逻辑性导致裁判文书量刑情节识别效果不佳的问题，提出一种基于反绎学习的量刑情节识别模型ABL-CON。首先结合神经网络与领域逻辑推理，通过半监督学习方法，使用置信学习方法表征情节识别置信度；然后修正无标签数据经过神经网络产生的不合逻辑的错误情节，重新训练识别模型，以提高识别精度。在自构建的司法数据集上的实验结果表明，使用50%标注数据与50%无标注数据的ABL-CON模型在Macro_F1值和Micro_F1值上分别达到了90.35%和90.58%，优于同样条件下的BERT和SS-ABL，也超越了使用100%标注数据的BERT模型。ABL-CON模型通过逻辑反绎修正不符合逻辑的标签能够有效提高标签的逻辑合理性以及标签的识别能力。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

8. 基于实体边界组合的关系抽取方法

李昊, 陈艳平, 唐瑞雪, 黄瑞章, 秦永彬, 王国蓉, 谭曦

《计算机应用》唯一官方网站 2022, 42 (6): 1796-1801. DOI: 10.11772/j.issn.1001-9081.2021091747

摘要（249）

HTML （10）

PDF （1005KB）（85）

关系抽取旨在从文本中抽取实体与实体之间的语义关系。作为关系抽取的上层任务，实体识别所产生的错误将扩散至关系抽取，从而导致级联错误。与实体相比，实体边界粒度小且具有二义性，更易识别。因此，提出一种基于实体边界组合的关系抽取方法，通过跳过实体，对实体边界两两组合来进行关系抽取。由于边界性能高于实体性能，所以错误扩散的问题得到了缓解；并且通过特征组合的方法将实体类型特征和位置特征加入模型中，性能得到了进一步提高，再次减轻了错误扩散带来的影响。实验结果表明，所提方法在ACE 2005英文数据集的宏平均F1值优于表格-序列编码器方法8.61个百分点。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

9. 基于用户行为特征的多维度文本聚类

黎万英, 黄瑞章, 丁志远, 陈艳平, 徐立洋

计算机应用 2018, 38 (11): 3127-3131. DOI: 10.11772/j.issn.1001-9081.2018041357

摘要（912）

PDF （970KB）（485）

传统多维度文本聚类一般是从文本内容中提取特征，而很少考虑数据中用户与文本的交互信息（如：点赞、转发、评论、关注、引用等行为信息），且传统的多维度文本聚类主要是将多个空间维度线性结合，没能深入考虑每个维度中属性间的关系。为有效利用与文本相关的用户行为信息，提出一种结合用户行为信息的多维度文本聚类模型（MTCUBC）。根据文本间的相似性在不同空间上应该保持一致的原则，该模型将用户行为信息作为文本内容聚类的约束来调节相似度，然后结合度量学习方法来改善文本间的距离，从而提高聚类效果。通过实验表明，与线性结合的多维度聚类相比，MTCUBC模型在高维稀疏数据中表现出明显的优势。

参考文献 | 相关文章 | 多维度评价

Select

10. 基于狄利克雷多项分配模型的多源文本主题挖掘模型

徐立洋, 黄瑞章, 陈艳平, 钱志森, 黎万英

计算机应用 2018, 38 (11): 3094-3099. DOI: 10.11772/j.issn.1001-9081.2018041359

摘要（421）

PDF （1100KB）（462）

随着文本数据来源渠道越来越丰富，面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模，直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配（DMA）模型的多源文本主题挖掘模型——多源狄利克雷多项分配模型（MSDMA）。通过考虑主题在不同数据源的词分布的差异性，结合DMA模型的非参聚类性质，模型主要解决了如下三个问题：1）能够学习出同一个主题在不同数据源中特有的词分布形式；2）通过数据源之间共享主题空间和词项空间，使得数据源间可进行主题知识互补，提升对高噪声、低信息量的数据源的主题发现效果；3）能自主学习出每个数据源内的主题数量，不需要事先给定主题个数。最后通过在模拟数据集和真实数据集的实验结果表明，所提模型比传统主题模型能更有效地对多源数据进行主题信息挖掘。

参考文献 | 相关文章 | 多维度评价

Select

11. 基于带权超图的跨网络用户身份识别方法

徐乾, 陈鸿昶, 吴铮, 黄瑞阳

计算机应用 2017, 37 (12): 3435-3441. DOI: 10.11772/j.issn.1001-9081.2017.12.3435

摘要（435）

PDF （1259KB）（688）

随着各种社交网络的不断涌现，越来越多的研究者开始从多源的角度分析社交网络数据，多社交网络的数据融合依赖于跨网络用户身份识别。针对现有的基于好友关系（FRUI）算法对社交网络中的异质关系利用率不高的问题，提出了基于带权超图的跨网络用户身份识别（WHUI）算法。首先，通过在好友关系网络上构建带权超图来准确地描述同一网络中的好友关系及异质关系，以此提高表示节点所处拓扑环境的准确性；然后，在构建好的带权超图的基础上，根据节点所处拓扑环境在不同网络中大致相同这一特性，定义节点之间的跨网络相似性；最后，结合迭代匹配算法，每次选取跨网络相似性最高的用户对进行匹配，并加入双向认证和结果剪枝来保证识别准确率。在合作网络DBLP和真实社交网络上进行了实验，实验结果表明，在真实社交网络上，所提算法相比FRUI算法，平均准确率提高了5.5个百分点，平均召回率提高了3.4个百分点，平均 F值提高了4.6个百分点。在只有网络拓扑信息的情况下，所提WHUI算法有效提高了实际应用中身份识别的准确率和召回率。

参考文献 | 相关文章 | 多维度评价

Select

12. 基于典型因果推断算法的无线网络性能优化

郝志峰, 陈薇, 蔡瑞初, 黄瑞慧, 温雯, 王丽娟

计算机应用 2016, 36 (8): 2114-2120. DOI: 10.11772/j.issn.1001-9081.2016.08.2114

摘要（613）

PDF （1089KB）（590）

现有的无线网络性能优化方法主要基于指标间的相关关系分析，无法有效指导网络优化等干预行为。为此，提出典型因果推断（CCI）算法，并将其应用于无线网络性能优化。首先，针对无线网络性能由大量相关指标体现这一特性，采用典型相关分析（CCA）方法，提取指标中蕴含的原子事件；然后再采用因果推断方法，构建原子事件间的因果关系网络。通过上述两个阶段反复迭代，确定原子事件间的因果关系网络，为无线网络性能优化提出一个较为可靠和有效的依据。最后通过模拟实验验证了CCI算法的有效性，在某城市3万多个移动基站数据上发现了一批有意义的无线网络指标间的因果关系。

参考文献 | 相关文章 | 多维度评价

Select

13. 基于主题模型的个性化图书推荐算法

郑祥云, 陈志刚, 黄瑞, 李博

计算机应用 2015, 35 (9): 2569-2573. DOI: 10.11772/j.issn.1001-9081.2015.09.2569

摘要（579）

PDF （762KB）（18353）

针对传统推荐算法精准度不高的问题,在潜在狄利克雷分布(LDA)主题挖掘模型的基础上提出了一种新的适用于图书推荐(BR)的数据挖掘模型——BR_LDA模型。通过对目标借阅者的历史借阅数据与其他图书数据进行内容相似度分析,得到与目标借阅者历史借阅图书内容相似度较高的其他图书。通过对目标借阅者的历史借阅数据及其他借阅者的历史借阅数据进行相似性分析,得到最近邻借阅者的历史借阅数据。通过求解图书被推荐的概率,最终得到目标借阅者潜在感兴趣的图书。特别地,当推荐数量为4000时,BR_LDA模型比基于多特征方法和关联规则方法精准度分别提高了6.2%、4.5%;当推荐数量为500时,BR_LDA模型比协同过滤的近邻方法和矩阵分解方法分别提高了2.1%、0.5%。实验表明本模型能够更准确地向目标借阅者推荐历史感兴趣类别的新图书及潜在感兴趣的新类别的图书。

参考文献 | 相关文章 | 多维度评价

Select

14. 基于事件表示和对比学习的深度事件聚类方法

蒋小霞黄瑞章白瑞娜任丽娜陈艳平

《计算机应用》唯一官方网站 DOI: 10.11772/j.issn.1001-9081.2023060851
预出版日期: 2023-08-23

Select

15. 基于掩码提示与门控记忆网络校准的关系抽取方法

魏超陈艳平王凯秦永彬黄瑞章

《计算机应用》唯一官方网站 DOI: 10.11772/j.issn.1001-9081.2023060818
预出版日期: 2023-08-30

Select

16. WISA2023+37 基于多尺度混合注意力卷积神经网络的关系抽取

唐媛陈艳平扈应黄瑞章秦永彬

Select

17. WISA2023+10 面向机器阅读理解的边界感知方法

刘青陈艳平邹安琪黄瑞章秦永彬